Phần cứng Tính toán song song

Bộ nhớ và sự kết nối

Bộ nhớ chính trong một máy tính song song có thể là bộ nhớ chia sẻ (chia sẻ giữa tất cả các yếu tố xử lý trong một vùng địa chỉ đơn lẻ), hoặc bộ nhở phân tán (trong đó mỗi yếu tố xử lý có vòng địa chỉ cục bộ riêng).[23] Bộ nhớ phân tán đề cập đến việc bộ nhớ được phân phối một cách hợp lý, nhưng cũng bao hàm đến việc nó bị phân tán vật lý. Bộ nhớ chia sẻ phân tán và ảo hóa bộ nhớ kết hợp hai phương pháp tiếp cận, nơi mà các phần tử xử lý có bộ nhớ cục bộ riêng và truy cập vào bộ nhớ trên bộ xử lý không cục bộ. Truy cập vào bộ nhớ cục bộ thường nhanh hơn là truy cập vào bộ nhớ không cục bộ.

Một cái nhìn hợp lý về kiến trúc Non-Uniform Memory Access (NUMA). Bộ xử lý trong một thư mục có thể truy cập bộ nhớ của thư mục đó với độ trễ ít là truy cập vào bộ nhớ trong bộ nhớ của các thư mục khác.

Kiến trúc máy tính trong đó mỗi phần tử của bộ nhớ chính có thể được truy cập với độ trễ và băng thông bằng nhau được gọi là hệ thống Truy cập bộ nhớ đồng bộ (UMA). Thông thường, việc đó chỉ có thể được thực hiện bởi một hệ thống bộ nhớ chia sẻ, trong đó bộ nhớ không bị phân tán vật lý. Một hệ thống không có thuộc tính này được gọi là kiến trúc truy cập bộ nhớ không đồng bộ (NUMA). Hệ thống bộ nhớ phân tán có NUMA.

Hệ thống máy tính sử dụng các vùng nhớ đệm—các bộ nhớ nhỏ, nhanh đặt gần bộ xử lý mà lưu trữ các bản sao tạm thời của các giá trị bộ nhớ (gần trong cả ý nghĩa về vật lý và logic). Hệ thống máy tính song song gặp khó khăn với vùng nhớ đệm có thể lưu trữ cùng một giá trị ở nhiều vị trí, với khả năng thực thi chương trình không chính xác. Những máy tính này yêu cầu một hệ thống đồng bộ vùng nhớ đệm, trong đó theo dõi các giá trị lưu trữ và dọn dẹp chúng theo trình tự, do đó đảm bảo chương trình được thực hiện đúng. Bus snooping là một trong những phương pháp phổ biến nhất cho việc theo dõi những giá trị nào đang được truy cập (và nên được thanh lọc). Thiết kế hệ thống đồng bộ vùng nhớ đệm lớn, hiệu suất cao là một vấn đề rất khó trong kiến trúc máy tính. Kết quả là, kiến trúc máy tính chia sẻ bộ nhớ không được coi trọng như hệ thống bộ nhớ phân tán.[23]

Kiểu kết nối bộ xử lý-bộ xử lý và bộ xử lý-bộ nhớ có thể được thực hiện trong phần cứng theo nhiều cách, bao gồm thông qua chia sẻ (bộ nhớ đa cổng hoặc đa hợp), một bộ chuyển mạch thanh ngang, một dòng chia sẻ hay một mạng liên kết của vô số các cấu trúc liên kết bao gồm star, ring, tree, hypercube, fat hypercube (một hypercube với nhiều hơn một bộ xử lý tại nút a), hoặc mạng n chiều.

Máy tính song song dựa trên kết nối mạng cần phải có một số loại định tuyến để cho phép việc truyền thông điệp giữa các nút không được kết nối trực tiếp. Phương pháp được sử dụng cho kết nối giữa các bộ xử lý có thể được phân cấp trong các máy vi xử lý lớn.

Các dạng máy tính song song

Máy tính song song có thể được tạm phân loại theo mức độ các phần cứng hỗ trợ song song. Kiểu phân loại này nói chung tương tự như khoảng cách giữa các nút tính toán cơ bản. Đây không phải là loại trừ lẫn nhau; ví dụ, các cụm đa xử lý đối xứng là tương đối phổ biến.

Tính toán đa nhân

Bài chi tiết: CPU đa nhân

Một bộ xử lý đa lõi là một bộ xử lý bao gồm nhiều đơn vị thực hiện ("nhân") trên cùng một chip. Những bộ xử lý này khác với bộ xử lý siêu vô hướng, có thể tạo ra nhiều câu lệnh trên một chu kỳ từ một dòng lệnh (thread). Mỗi lõi trong bộ xử lý đa lõi đều có khả năng là siêu vô hướng—có nghĩa là, trên mỗi chu kỳ, mỗi lõi có thể tạo ra nhiều câu lệnh từ một dòng lệnh.

Xử lý đa luồng đồng thời (trong đó HyperThreading của Intel là nổi tiếng nhất) là một hình thức ban đầu của giả đa nhân. Một bộ xử lý có khả năng xử lý đa luồng đồng thời chỉ có một đơn vị thực hiện ("nhân"), nhưng khi đơn vị thực hiện đó không hoạt động (chẳng hạn như trong lỗi không tìm thấy trong vùng nhớ đệm), nó sử dụng đơn vị thực hiện đó để xử lý một chuỗi thứ hai.Cell microprocessor của IBM, được thiết kế để sử dụng cho Sony PlayStation 3, là một bộ xử lý đa lỗi nổi bật khác.

Đa xử lý đối xứng

Bài chi tiết: Đa xử lý đối xứng

Một bộ đa xử lý đối xứng (SMP) là một hệ thống máy tính với nhiều bộ xử lý giống hệt nhau chia sẻ bộ nhớ và kết nối thông qua một kênh.[24] Bus contention ngăn chặn các kiến trúc khỏi việc mở rộng. Kết quả là, SMPS thường không bao gồm hơn 32 bộ xử lý.[25] "Vì kích thước nhỏ của bộ xử lý và việc giảm đáng kể trong các yêu cầu về băng thông đạt được bởi các vùng nhớ đệm lớn, bộ đa xử lý đối xứng như vậy là cực kỳ hiệu quả, với điều kiện là tồn tại một băng thông bộ nhớ đủ dung lượng."[24]

Tính toán phân tán

Bài chi tiết: Tính toán phân tán

Một máy tính phân tán (còn được gọi là bộ đa xử lý bộ nhớ phân tán) là một hệ thống máy tính phân tán bộ nhớ trong đó các thành phần xử lý được kết nối bởi mạng. Máy tính phân tán có khả năng mở rộng cao.

Tính toán cụm

Bài chi tiết: Tính toán cụm

Một cụm Beowulf

Cluster là một nhóm các máy tính kết nối lỏng làm việc cùng nhau chặt chẽ, như vậy trong một số khía cạnh nào đó chúng có thể được coi là một chiếc máy tính.[26] Các cụm gồm nhiều máy tính độc lập được kết nối qua mạng. Khi các máy trong cụm không cần phải đối xứng, cân bằng tải sẽ trở nên khó hơn nếu chúng không đối xứng. Dạng phổ biến nhất của cụm là cụm Beowulf, là một cụm thực hiện trên nhiều máy tính commercial off-the-shelf giống nhau kết nối qua mạng cục bộ TCP/IP Ethernet.[27] Công nghệ Beowulf được phát triển đầu tiên bởi Thomas Sterling và Donald Becker. Đại đa số các siêu máy tính TOP500 là cụm.[28]

Tính toán song song hàng loạt

Bài chi tiết: Tính toán song song hàng loạt

Một bộ xử lý song song hàng loạt (MPP) là một máy tính đơn được kết nối với nhiều bộ xử lý. MPPs có nhiều đặc điểm tương tự như cụm, nhưng MPPs có kết nối mạng riêng biệt (trong khi các cụm sử dụng phần cứng cho mạng). MPPs cũng có xu hướng lớn hơn so với các cụm, thường có "nhiều hơn" 100 bộ xử lý.[29] Trong một MPP, "mỗi CPU có bộ nhớ riêng của nó và bản sao của hệ điều hành và ứng dụng. Mỗi hệ thống con giao tiếp với những cái khác thông qua một kết nối tốc độ cao."[30]

Một phòng máy của Blue Gene/L, xếp hạng là siêu máy tính nhanh thứ tư trên thế giới theo bảng xếp hạng TOP500 11/2008. Blue Gene / L là một bộ xử lý song song hàng loạt.

Blue Gene / L, siêu máy tính nhanh thứ năm thế giới theo xếp hạng TOP500 tháng 6 năm 2009, là một MPP.

Tính toán mạng lưới

Bài chi tiết: Điện toán lưới

Tính toán mạng lưới là dạng phân tán nhất của tính toán song song. Nó sử dụng các máy tính kết nối thông qua mạng Internet để làm việc với một vấn đề nhất định. Vì băng thông thấp và độ trễ rất cao của Internet, tính toán mạng lưới thường chỉ đối mặt với vấn đề embarrassingly parallel. Nhiều ứng dụng tính toán mạng lưới đã được tạo ra, trong đó SETI@home và Folding@Home là những ví dụ nổi tiếng nhất.[31]

Hầu hết những ứng dụng đều sử dụng middleware, phần mềm ở giữa hệ điều hành và các ứng dụng quản lý tài nguyên mạng và chuẩn hoá giao diện phần mềm. Middleware tính toán mạng lưới phổ biển nhất là Berkeley Open Infrastructure for Network Computing (BOINC). Thông thường, phần mềm tính toán mạng lưới sử dụng các "chu kỳ rỗi", thực hiện tính toán vào các thời điểm khi một máy tính đang không hoạt động.

Máy tính song song chuyên ngành

Trong tính toán song song, có những thiết bị song song chuyên ngành vẫn còn những khu vực quan tâm thích hợp. Khi không có miền riêng, chúng có xu hướng áp dụng đối với chỉ một vài phần của vấn đề song song.

Reconfigurable computing with field-programmable gate arrays

Reconfigurable computing is the use of a field-programmable gate array (FPGA) as a co-processor to a general-purpose computer. An FPGA is, in essence, a computer chip that can rewire itself for a given task.

FPGAs can be programmed with hardware description languages such as VHDL or Verilog. However, programming in these languages can be tedious. Several vendors have created C to HDL languages that attempt to emulate the syntax and/or semantics of the C programming language, with which most programmers are familiar. The best known C to HDL languages are Mitrion-C, Impulse C, DIME-C, and Handel-C. Specific subsets of SystemC based on C++ can also be used for this purpose.

AMD's decision to open its HyperTransport technology to third-party vendors has become the enabling technology for high-performance reconfigurable computing.[32] According to Michael R. D'Amour, Chief Operating Officer of DRC Computer Corporation, "when we first walked into AMD, they called us 'the socket stealers.' Now they call us their partners."[32]

Tính toán đa năng trên các đơn vị xử lý đồ họa (GPGPU)

Bài chi tiết: GPGPU

Card Tesla GPGPU của Nvidia

Tính toán đa năng trên các đơn vị xử lý đồ họa (GPGPU) là một xu hướng khá phổ biến gần đây trong nghiên cứu kỹ thuật máy tính. GPUs là các bộ xử lý đồng bộ được tối ưu hóa mạnh cho việc xử lý đồ họa máy tính.[33] Xử lý đồ họa máy tính là một lĩnh vực bị chi phối bởi các thao tác dữ liệu song song—đặc biệt là các thao tác ma trận đại số tuyến tính.

Trong những ngày đầu, các chương trình GPGPU sử dụng đồ họa thông thường APIs để chạy. Tuy nhiên, một số ngôn ngữ và nền tảng lập trình mới đã được xây dựng để thực hiện tính toán đa năng trên GPU với cả Nvidia và AMD tạo ra môi trường lập trình với CUDA và CTM tương ứng. Các ngôn ngữ lập trình GPU khác là BrookGPU, PeakStream, và RapidMind. Nvidia cũng đã tung ra các sản phẩm dành riêng cho tính toán trong dòng Tesla của họ. Tập đoàn công nghệ Khronos Group đã tạo ra kỹ thuật OpenCL, một khuôn khổ cho việc viết chương trình chạy trên nền tảng bao gồm CPU và GPU. Apple, Intel, Nvidia và nhiều nhãn hiệu khác đều hỗ trợ OpenCL.

Mạch tích hợp ứng dụng cụ thể

Bài chi tiết: Application-specific integrated circuit

Một số phương pháp tiếp cận mạch tích hợp ứng dụng cụ thể (ASIC) đã được nghĩ ra để đối phó với các ứng dụng song song.[34][35][36]

Vì một ASIC (theo định nghĩa) là dành riêng cho một ứng dụng nhất định, nó có thể được tối ưu hóa hoàn toàn cho ứng dụng đó. Kết quả là, đối với một ứng dụng nhất định, ASIC là một xu hướng tốt hơn một máy tính đa năng. Tuy nhiên, ASIC được tạo ra bởi X-ray lithography. Quá trình này đòi hỏi một màn chắn rất tốn kém. Một màn chắn đơn có thể có giá hơn một triệu đô la Mỹ.[37] (Các bóng bán dẫn cần thiết cho chip càng nhỏ, các màn chắn sẽ càng đắt tiền.) Trong khi đó, tăng hiệu quả tính toán đa năng theo thời gian (như mô tả của định luật Moore) có xu hướng xóa bỏ lợi nhuận trong chỉ một hoặc hai thế hệ chip.[32] Chi phí ban đầu cao, và xu hướng bị vượt qua bởi tính toán đa năng của định luật Moore, đã làm cho ASIC không khả thi với hầu hết các ứng dụng tính toán song song. Tuy nhiên, một số đã được xây dựng. Một ví dụ là máy peta-flop RIKEN MDGRAPE-3 đã sử dụng tùy chỉnh ASIC cho mô phỏng động học phân tử.

Xử lý liên hợp

Bài chi tiết: Xử lý liên hợp

Cray-1 là bộ xử lý liên hợp nổi tiếng nhất.

Một bộ xử lý liên hợp là hệ thống CPU hoặc máy tính có thể thực hiện cùng một lệnh trên các bộ dữ liệu lớn. "Các bộ xử lý liên hợp có những thao tác cấp cao làm việc trên các mảng tuyến tính của số hoặc vector. Một ví dụ thao tác liên hợp là A = B × C, trong đó A, B, và C là các vector phần tử 64 của các số dấu phẩy động 64-bit."[38] Chúng liên quan chặt chẽ đến phân loại SIMD của Flynn.[38]

Các máy tính Cray trở nên nổi tiếng với bộ xử lý liên hợp của chúng trong những năm 1970 và 1980. Tuy nhiên, bộ xử lý liên hợp—trong cả các hệ thống CPU cũng như máy tính—đã gần như biến mất. Các bộ xử lý lệnh hiện đại có bao gồm một số câu lệnh xử lý liên hợp, chẳng hạn như AltiVec và Streaming SIMD Extensions (SSE).